Повышение эффективности на потребительском оборудовании
По данным компании, новый фреймворк значительно снижает требования к памяти и вычислительным ресурсам. Это открывает возможность тонкой настройки моделей (fine-tuning) на обычных ноутбуках, потребительских GPU от AMD, Intel и Apple, а также на современных мобильных устройствах.
Бенчмарки показывают, что модель BitNet-1B требует до 77,8% меньше видеопамяти (VRAM) по сравнению с традиционными 16-битными моделями, такими как Gemma или Qwen. Такой прирост эффективности позволяет запускать более крупные модели на оборудовании, которое ранее считалось недостаточным.
Тесты на iPhone 16 и Samsung S25
Tether продемонстрировал возможности технологии на флагманских смартфонах. Модель BitNet с 125 млн параметров была оптимизирована под биомедицинический датасет на Samsung S25 примерно за 10 минут.
На iPhone 16 удалось провести fine-tuning моделей с объёмом до 13 млрд параметров. При этом производительность inference на мобильных GPU оказалась в 2–11 раз выше, чем на CPU.
Шаг к децентрализации ИИ
CEO Tether Паоло Ардоино подчеркнул, что централизованное обучение ИИ-моделей может сдерживать инновации и создавать дисбаланс в доступе к технологиям. Компания стремится сделать ИИ более доступным, позволяя пользователям работать с моделями локально и сохранять контроль над данными.
Кроме того, фреймворк впервые поддерживает LoRA-файнтюнинг 1-битных LLM на оборудовании, не связанном с Nvidia, что снижает зависимость от конкретных производителей чипов.
Вывод
QVAC Fabric может стать важным шагом к демократизации ИИ: снижение требований к инфраструктуре открывает доступ к разработке моделей для более широкого круга пользователей и компаний, ускоряя развитие децентрализованных технологий.